Quasi-RNN的核心是在 k-gram CNN(文本卷积)的基础上使用 adaptive gating。
在讨论k-gram卷积的时候,通常不会使用k=1既 window size 1作为运行参数。这点在包括Q-RNN本身的许多论文中都有体现 [1,2,3,4,5]。

SRU中的矩阵变换虽然可以看做 k=1的情况,但这跟声称“所有前馈神经网络(fast forward network)都是 k=1 卷积” 或者 “VGG net 和 GoogLeNet 是 AlexNet 改成3*3卷积然后加深度”没有本质差别。
3卷积然后加深度”没有本质差别。